来源: NOEMA(Kerim Safa 创作)

减少数字垃圾

加州大学伯克利分校信息学院和政治学系教授,也是 2019-2020 博古睿研究院研究员。

加州大学伯克利分校长期网络安全中心执行主任。

企业家,也是加州大学伯克利分校信息学院的讲师。他最近是迈克菲的研究员。

班加罗尔印度科学院社会与政策中心客座教员。

2021-06-02 / 阅读时长 12 分钟
NOEMA 首发 译文

近年来,庞大复杂的人类系统生产有害垃圾,其问题正在逐渐显现:倾倒进河流海洋的塑料和其他固体垃圾、排入大气中的二氧化碳和其他污染物,还有人类冲进马桶和水槽,结果后来在鱼群身上发现的化学药物。20世纪后半叶的环保运动,让人们真切意识到了垃圾洪流的存在,也在相当程度上让人们懂得了自身生活方式与行为应负的责任。这是迈向政策调整,改变行为习惯,以图减少废物并减轻连带损害的重要一步。

然而,数据和数字世界还没有做到这一步。这个领域中的“垃圾”概念及其责任方,至今不为大多数人所知。所有人在日常生活中都制造了大量数字垃圾,但它们大多是看不见的(就像一百年前的人眼中的碳排放一样)。当然,当连带危害直接落到制造垃圾的人头上的时候,就看得见了。

我们所说的“数字垃圾”就是数据,包括原始数据和加工过的数据——数字经济产生的一条看不见的垃圾洪流(不包含数字经济产生的其他垃圾,比如数据中心的碳排放、电子设备生产和不当处置造成的污染等,尽管它们也很重要)。举个例子,你使用工具在家里自行改造了家门口的安全摄像头,然后把过程拍成视频发到网上。这是挺好玩的,对其他人大概也会有帮助,但这一数据流很容易暴露你的住址、你一般在家的时间、你家安保系统的漏洞——甚至还能让人推断出你邻居家的情况。这就是数字垃圾,一种由我们的活动造成的普遍后果。

数字生活产生的垃圾已经堆积了几十年。比方说,你真的相信在暗网上随便搜索一条信息不会暴露你的社保号码、你母亲的婚前姓氏、你出生在哪一座城市、你上的哪一所高中吗?你真的相信黑客找不到你反复使用的密码吗?

“你真的相信在暗网上随便搜索一条信息不会暴露你的社保号码吗?”

数字垃圾会影响到个人:你的密码或者银行账户信息泄漏到了互联网的某些阴暗角落。数字垃圾也会累积起来,造成更大范围的社会性破坏:虚假信息、监控追踪、经济不平等和无处问责。别忘了,就在不到20年前,人们还笃信数字革命会带来开放透明、机遇和民主化,撇开臃肿的体制而实现权力格局调整。现在看来,数字垃圾已经让我们不堪重负,当年的期望早被抛在身后。

对于任何一个生态系统产生的垃圾,我们一般有多种处置方式:容忍(饮用水中的痕量有毒物质)、循环或改造利用(旧轮胎、硬纸板)、转移到我们认为会造成较小危害的其他生态系统(纽约市的垃圾船)或者封存起来,将垃圾与任何其他生态系统隔离上千年(核废料)。

但是,几乎当所有社会技术生态系统发展到一定程度时,都肯定会有相当一批人意识到,这些策略还是不够用,我们不能仅仅处置已经产生的垃圾流——必须要减少垃圾的产生。过去半个世纪以来,人们对大气中的碳含量就形成了这样的意识。2007年壳牌公司有一条广告语:“什么都不要扔掉,因为你根本扔不掉。”(Don’t throw anything away. There is no away.)不管是否出于真心,它都有力地传达了一个全世界许多人都开始懂得的道理:生态系统处理垃圾废物的能力是有限的。

数字垃圾也即将迎来这样的时刻。数字垃圾管理服务已经不堪重负。一个尖锐而直接的例子——这样的例子还有很多——犯罪组织已经建立了一个庞大而复杂的市场,专门交易被窃数据和暗网上获取的网络安全信息。

在华盛顿、布鲁塞尔、帕罗奥图乃至几乎每一个政治与科技权力中心,我们都能明显看到对数字垃圾的紧迫意识。新闻通稿中充斥着各种行动呼吁,上至全国性隐私立法和信息泄露法规,下至唤醒公众意识。有些是有理有据的论证,也有些是单纯倾诉对打破“技术巨头”的情绪。

显然,现在根本没有一套综合性的垃圾减排战略,最多不过是打地鼠而已。脸书和谷歌一类的平台企业大体上采用应激模式,有时表现出要向负责的方向迈进,有时又仅仅满足于平息一时的巨大压力。不管是在内容审核、数据隐私还是信息安全方面,平台企业都是摸着石头过河。

最近的例子莫过于1月6日“冲击国会山事件”后,唐纳德·特朗普遭到多平台封禁。这就好比石油泄漏清理行动——是危机关头的重要举措,但并不属于一套宏观的变革方略。

从我们是如何对待保护个人数字信息安全的第一步中,便可窥见一种潜在的长远解决方案。现在,数字验证的信息很简单:为了向银行或医院证明你自报的身份属实,你需要提供下列三个方面的部分信息:你掌握的信息(密码)、你拥有的事物(发送至手机的一次性验证码)、你的个人特征(指纹)。单一的密码验证极不可靠,风险甚大,这是我们都知道的。双重验证要安全一些,但对用户负担也更大,而且现在也远远称不上万无一失。

基于持续行为的验证(continuous behavior-based authentication,简称CBBA)更进了一步。CBBA是多种基于用户持续表现而非即时状态的验证技术与流程。

“现在根本没有一套综合性的垃圾减排战略,最多不过是打地鼠而已。”

例如,每个人的打字节奏、对屏幕闪光的眼动反应、在房间里走动的步态都有细微的差别。就连深呼吸的声音都可以是一种验证特征,如果测量得足够精确的话。设想一下:我们连续测量一个人的多项个人专属特征,然后将其组合成一个定期更新的概率分数。这个分数就可以用来确定一个人是否有权从银行取款、查看病历或者参加选举投票。

CBBA的好处是完全后台运行,不影响用户体验——不会有弹窗出来要你填写密码,不需要担心手机在哪里,不需要提供面部照片,也不需要给出社保号码后四位。

除了方便以外,CBBA还有很多优点。它会大大减少诈骗犯的可趁之机,淘汰传统的钓鱼式攻击,还会让被窃密码变得一文不值。它会显著改变数字安全的格局,既能堵住许多坏人的方便之门,又会减少合法用户目前不得不承担的成本。设想一下吧,一个没有密码找回流程和专线电话的世界。那真是一个可爱的地方。

但是,CBBA也有值得关注的重大风险和损害。位置信息、键盘敲击节奏、声纹、步态——还有上述或者其他特征的跨时比较——都有造成危害的风险。验证完之后,这些信息马上就会变成数字垃圾,而且会造成长期的垃圾问题,就像DNA资料一样。密码被盗可以改,但步态或声纹是改不了的,至少是不容易改。

CBBA的长期垃圾问题比单纯可能被冒名顶替或者敲诈的风险还要大,因为设计精良的CBBA系统可以在内部减轻这些风险。令人担心的一点是,CBBA数据可以被用来推断出你的身心健康状况或者其他你无意暴露的特征,尤其是当CBBA与飘荡在数字垃圾洪流中的其他信息结合起来的时候。如果攻击者能发现你的声纹和打字节奏发生了变化,再结合你的睡眠数据和购物信息,他们几乎就可以完全断定你患上了重度抑郁。这种数据可以被用来造成严重的危害——CBBA数据只是一个例子而已。

“它会大大减少诈骗犯的可趁之机,淘汰传统的钓鱼式攻击,还会让被窃密码变得一文不值。”

那么,我们要如何贯彻维护生态系统可持续发展的目标,将垃圾流减少到可控的水平呢?接下来,我们会以CBBA为例,从概念层面提出四条简单的举措。

   一、只要验证系统达到了实现特定验证功能所需的置信阈值,则应停止收集CBBA数据。
   二、凡是不能证明有利于验证系统效率和准确度的历史数据,则应一律删除。
   三、初期应限制收集任何一类CBBA数据的人员数量——最好由一家或少数几家签约服务提供商负责,以利安全。
   四、围绕验证服务开发商业模式,为推动变革提供支持。商业模式应具备相当的生命力,以免CBBA服务商将收集来的数据分享给第三方——比如用于广告投放。

如何将这些减害概念转化为现实行动呢?以减少碳排放为目标的限额交易体系(cap-and-trade system)为我们提供了一种潜在方案的线索。定价机制是关键,要为市场主体提供竞相减少数字垃圾连带危害的激励。

限额部分很直接:政府规定数字垃圾连带危害的总额上限,同时规定每年必须减少的比例(比如1%)。此举会激励总体层面的创新。交易部分指的是,管理体系在特定时间点将减害负担分配到减害效率最高的领域的方式。例如,政府可以为使用数据最少的算法发放“点数”,点数可以交易,于是可以卖给所用算法需要更多数据的公司。此举会激励个体层面的创新,对最高效的减害手段予以奖励,从而形成竞争压力。

进一步对“排放”数字垃圾实行惩罚性定价的方法就很简单了。比如,可以考虑实施本意是抑制高频外汇交易的“托宾税”(译者注:针对外汇交易征收全球统一税额的主张,1972年由经济学家詹姆斯·托宾提出)。另一种类似的办法是,每当一家CBBA服务提供商要向验证模型中加入一种新的数据输入项,则对其征收一笔小额税款。如果新的数据输入项确有实效,能够提升模型的性能,那么要求公司缴纳就是合理的。但是,如果数据对模型性能的提升有限,那么这一税种就会从根源上限制数据收集。税率还可以按照预先确定的时间表逐步提高,从而鼓励数据减害领域的投资与创新。

在通往设计数据减害市场的道路上,有一个概念层面的障碍:如何定义数字危害的单位?碳限额交易市场的单位简洁明了:二氧化碳排放量。这个指标比较容易测量,与危害程度也有着直接关联。当然,它并不全面,也不完美——因为甲烷、二氧化硫等其他温室气体的排放也很麻烦——但是够用了。

数据垃圾的危害可以类比于什么呢?我们确切地知道它不能类比于什么:数据量,比如太拉字节(TB)。同样是1TB数据,不同内容蕴含的潜在危害大不相同。

对于与数据垃圾相关的各种可能强制性危害,有一种方法或许可以了解它的负期望价值,那就是问人们愿意付出多少钱来避免这些危害。某个人可能愿意为了避免购物选择被操纵而支付10美元,但为了避免参政活动被操纵可能愿意支付30美元。这种方法有多种重大缺陷,其中最重要的一点大概在于,许多数据危害来自数据之间的复杂交互,普通人难以理解。

“如何将这些减害概念转化为现实行动呢?以减少碳排放为目标的限额交易体系为我们提供了一种潜在方案的线索。”

制度化是一种更好的方案。设想一下:由国会指定成立一个公私合作模式的委员会,负责结合最前沿的科学知识,提出数据危害单位试行方案。委员会架构的关键是选任与投票方式。委员会必须提供适当的激励,务求委员人选秉公持正,投票制度以公共利益为重。

举个例子:委员会成员中三分之一由国会任命,三分之一由非政府组织、智库和大学任命,还有三分之一由一家科技行业协会任命。委员会的任务是在开始运作后一年内,给出一种数据危害推荐计量单位,如果届时未能达成共识,则参与各方均要接受惩罚。惩罚方案的制定依据是,如果不顾数据垃圾造成的危害,各方分别能有多少获益。委员会一致认可的单位将在规定时间内试行,之后将另择人选成立新委员会来负责评估和完善。

必须要有可靠的威胁手段来确保,一旦试行方案未能达成共识,则受益于数据放任自流的企业将承受最严厉的惩罚。威胁真的可靠吗?我们认为是的,因为社会目前已经准备好对平台企业提出这样的坚定要求了。于是,从企业的角度出发,它们就有两个选择:要么以建设性的态度参与寻找合理数字危害计量单位的进程中,这一单位会对企业带来成本,但对社会是有利的,要么阻挠进程并承担大得多的成本。

减轻数字垃圾的危害是一个温和的目标,而非号召发动革命。最激进的注意力经济和监控资本主义批判者不会满意,还有一些人断定,用非直接支付的服务(通过广告)换取个人信息是一种存在根本缺陷的、极其有害的、完全非民主的经营手段或经济运行方式,这些人也不会满意。碳限额交易体系也没有满足化石燃料行业最坚定的批评者。重点是让世界踏上一条更安全的、更好的道路。

对于认同可持续发展是合理目标的人来说,有一种明显可见的效果检验方法。我们还是以CBBA为例:设想谷歌、苹果、脸书、亚马逊和其他新企业都开始提供仅凭CBBA验证即可登录的功能。最重要的信号是:企业间竞争的主战场是如何减少负外部性、数据垃圾及其潜在危害——而不只是为用户提供方便廉价的服务。目前,厂商根本没有努力减少数据垃圾及其危害的激励。我们的试行方案会改变厂商激励的格局,这也是一种胜利的定义,温和但也非常重要。

上述论证也有几点局限性:它是一种典型的西方思路,其基础是一套从负外部性和效率概念视角看待垃圾的经济框架。主张公司、政府或攻击者利用个人数据垃圾进行推算的做法是强加给个体的伤害——这或许是一种西方文化特有的观念,而非普遍共识。全世界的各种社会和文化对待垃圾的总体认知与实践方式当然各有不同。这一事实是未来工作中新想法和新机遇的丰富源泉,而不是放弃自身观念的理由。

此外,市场机制设计并非与政治绝缘。但是,公私合营的委员会模式和以公众利益为宗旨的投票规则可以起到一定的隔绝作用,而且我们还可以探索其他的方式。

“我们的试行方案会改变厂商激励的格局,这也是一种胜利的定义,温和但也非常重要。”

另一个潜在问题是惰性:固定资产与沉没成本。但是,数字经济的绝大部分企业投入的固定资产都远远小于——举个例子——化石燃料经济。数据中心确实成本高昂,但与海上钻井平台不可同日而语,而且摊销期一般不会是50年,而只有10年左右。某些种类的数字垃圾可能有着很长的“半衰期”,但比特世界的自由度毕竟比分子世界大一些。

在大多数互联网和数字服务的个体使用者看来,上述内容可能会显得抽象而遥远。但不妨将它设想为一个通往更能引起个人共鸣的愿景的重要步骤。中期目标应该是创造出一种以减少数字垃圾为中心的生活方式,类似于过去20年来部分地区开展的生态生活:回收利用、家庭堆肥、可再生能源、电动交通工具、减少消费。这些做法在一定程度上都是奢侈的选择,但每一项选择的花费都在降低,同时人们的意识也在觉醒。

如果把代际平等因素也考虑进来,那就更没有内在理由认为企业家不会逐渐用类似的思路来设计数字减害方案了。没有人会在明知自己的孩子也会中毒的情况下,还去给地下水里投毒。归根结底,打造新的数字生活方式是为了保护我们的孙辈将来享用的互联网,而减少数字垃圾正是一个好的开端。

姜昊骞 | 译
天萌「睿ⁿ」 | 编

(本文原文为英文,出自博古睿研究院出版的Noema杂志,发表于2021年4月8日。版权所有,未经允许请勿转载)